Removing reverb from reverberant music is a necessary technique to clean up audio for downstream music manipulations. Reverberation of music contains two categories, natural reverb, and artificial reverb. Artificial reverb has a wider diversity than natural reverb due to its various parameter setups and reverberation types. However, recent supervised dereverberation methods may fail because they rely on sufficiently diverse and numerous pairs of reverberant observations and retrieved data for training in order to be generalizable to unseen observations during inference. To resolve these problems, we propose an unsupervised method that can remove a general kind of artificial reverb for music without requiring pairs of data for training. The proposed method is based on diffusion models, where it initializes the unknown reverberation operator with a conventional signal processing technique and simultaneously refines the estimate with the help of diffusion models. We show through objective and perceptual evaluations that our method outperforms the current leading vocal dereverberation benchmarks.
translated by 谷歌翻译
Score-based generative models learn a family of noise-conditional score functions corresponding to the data density perturbed with increasingly large amounts of noise. These perturbed data densities are tied together by the Fokker-Planck equation (FPE), a PDE governing the spatial-temporal evolution of a density undergoing a diffusion process. In this work, we derive a corresponding equation characterizing the noise-conditional scores of the perturbed data densities (i.e., their gradients), termed the score FPE. Surprisingly, despite impressive empirical performance, we observe that scores learned via denoising score matching (DSM) do not satisfy the underlying score FPE. We mathematically analyze three implications of satisfying the score FPE and a potential explanation for why the score FPE is not satisfied in practice. At last, we propose to regularize the DSM objective to enforce satisfaction of the score FPE, and show its effectiveness on synthetic data and MNIST.
translated by 谷歌翻译
一个著名的矢量定量变分自动编码器(VQ-VAE)的问题是,学识渊博的离散表示形式仅使用代码书的全部容量的一小部分,也称为代码书崩溃。我们假设VQ-VAE的培训计划涉及一些精心设计的启发式方法,这是这个问题的基础。在本文中,我们提出了一种新的训练方案,该方案通过新颖的随机去量化和量化扩展标准VAE,称为随机量化变异自动编码器(SQ-VAE)。在SQ-VAE中,我们观察到一种趋势,即在训练的初始阶段进行量化是随机的,但逐渐收敛于确定性量化,我们称之为自宣传。我们的实验表明,SQ-VAE在不使用常见启发式方法的情况下改善了代码书的利用率。此外,我们从经验上表明,在视觉和语音相关的任务中,SQ-VAE优于VAE和VQ-VAE。
translated by 谷歌翻译
变异自动编码器(VAE)经常遭受后塌陷,这是一种现象,其中学习过的潜在空间变得无知。这通常与类似于数据差异的高参数有关。此外,如果数据方差不均匀或条件性,则确定这种适当的选择将变得不可行。因此,我们提出了具有数据方差的广义参数化的VAE扩展,并将最大似然估计纳入目标函数中,以适应解码器平滑度。由提议的VAE扩展产生的图像显示,MNIST和Celeba数据集上的Fr \'Echet Inception距离(FID)得到了改善。
translated by 谷歌翻译
域的适应性旨在将从源域获得的标记实例转移到目标域,以填补域之间的空白。大多数域适应方法都假定源和目标域具有相同的维度。当每个域中的特征数量不同时,都很少研究当适用的方法,尤其是当未给出从目标域获得的测试数据的标签信息时。在本文中,假定在两个域中都存在共同特征,并且在目标域中观察到额外的(新的)特征。因此,目标域的维度高于源域的维度。为了利用共同特征的均匀性,这些源和目标域之间的适应性被称为最佳运输(OT)问题。此外,得出了基于ot的方法的目标域中的学习结合。使用模拟和现实世界数据对所提出的算法进行验证。
translated by 谷歌翻译
一个由许多移动计算实体组成的自动移动机器人系统(称为机器人)吸引了研究人员的广泛关注,并阐明机器人的能力与问题的可溶性之间的关系是近几十年来的新兴问题。通常,只要没有任何机器人的数量,每个机器人都可以观察所有其他机器人。在本文中,我们提供了关于机器人观察的新观点。机器人不一定要观察所有其他机器人,而不管距离距离如何。我们称此新的计算模型瑕疵视图模型。在该模型下,在本文中,我们考虑了需要所有机器人在同一时刻收集的收集问题,并提出了两种算法来解决对抗性($ n $,$ n-2 $)中的收集问题 - 违法模型对于$ n \ geq 5 $(每个机器人最多观察$ n-2 $机器人在对手身上选择)和基于距离的(4,2)的模型(每个机器人在最接近的机器人最接近的机器人中分别观察到)分别,其中$ n $是机器人的数量。此外,我们提出了一个不可能的结果,表明在对抗性或基于距离(3,1)的模型中没有(确定性的)收集算法。此外,我们在放松的($ n $,$ n-2 $)中的聚会中表现出了不可能的结果。
translated by 谷歌翻译
在对肺癌患者的放疗治疗期间,需要最小化肿瘤周围健康组织的辐射,这由于呼吸运动和线性加速器系统的潜伏期很难。在拟议的研究中,我们首先使用Lucas-Kanade锥体光流算法来对四个肺癌患者的胸部计算机断层扫描图像进行可变形的图像登记。然后,我们根据先前计算的变形场跟踪靠近肺部肿瘤的三个内部点,并通过使用实时重复学习(RTRL)和梯度剪辑训练的复发神经网络(RNN)预测其位置。呼吸数据非常规规律,在约2.5Hz时采样,并在脊柱方向上包括人工漂移。轨道点的运动幅度范围为12.0mm至22.7mm。最后,我们提出了一种基于线性对应模型和Nadaraya-Watson非线性回归的最初肿瘤图像的恢复和预测3D肿瘤图像的简单方法。与测试集上RNN预测相对应的根平方误差,最大误差和抖动小于使用线性预测和最小平方(LMS)获得的相同性能度量。特别是,与RNN相关的最大预测误差等于1.51mm,比与线性预测和LMS相关的最大误差低16.1%和5.0%。 RTRL的平均预测时间等于119ms,小于400ms标记位置采样时间。预测图像中的肿瘤位置在视觉上似乎是正确的,这通过等于0.955的原始图像和预测图像之间的高平均互相关证实。
translated by 谷歌翻译
动态运动是机器人武器的关键特征,使他们能够快速有效地执行任务。在任务空间运行时,软连续式操纵器目前尚未考虑动态参数。这种缺点使现有的软机器人缓慢并限制了他们处理外力的能力,特别是在物体操纵期间。我们通过使用动态操作空间控制来解决此问题。我们的控制方法考虑了3D连续体臂的动态参数,并引入了新模型,使多段软机械师能够在任务空间中顺利运行。先前仅为刚性机器人提供的先进控制方法现在适用于软机器;例如,潜在的场避免以前仅针对刚性机器人显示,现在延伸到软机器人。使用我们的方法,柔软的机械手现在可以实现以前不可能的各种任务:我们评估机械手在闭环控制实验中的性能,如拾取和障碍物避免,使用附加的软夹具抛出物体,并通过用掌握的粉笔绘制来故意将力施加到表面上。除了新的技能之外,我们的方法还提高了59%的跟踪精度,并将速度提高到19.3的尺寸,与最新的任务空间控制相比。通过这些新发现能力,软机器人可以开始挑战操纵领域的刚性机器人。我们固有的安全和柔顺的软机器人将未来的机器人操纵到一个不用的设置,其中人和机器人并行工作。
translated by 谷歌翻译
软机器均由柔顺性和可变形的材料制成,可以对传统的刚性机器人进行具有挑战性的任务。软机器人的固有依从性使其更适合和适应与人类和环境的相互作用。然而,这种优势以成本为准:他们的连续性性质使得强大地发展基于稳健的基于模型的控制策略。具体地,解决这一挑战的自适应控制方法尚未应用于物理软机械臂。这项工作介绍了使用Euler-Lagrange方法对软连续式机械手进行动态的重新装配。该模型消除了先前作品中的简化假设,并提供了更准确的机器人惯性描述。基于我们的模型,我们介绍了任务空间自适应控制方案。该控制器对模型参数不确定性和未知输入干扰具有稳健。控制器在物理软连续臂上实现。进行了一系列实验以验证控制器在不同有效载荷下的任务空间轨迹跟踪中的有效性。在准确性和稳健性方面,控制器均优于最先进的方法。此外,所提出的基于模型的控制设计是柔性的,并且可以广泛地推广到具有任意数量的连续段的任何连续型机器人臂。
translated by 谷歌翻译
在肺放疗期间,可以记录红外反射物体的位置以估计肿瘤位置。但是,放射治疗系统具有阻碍辐射递送精度的机器人控制限制固有的延迟。通过在线学习复发性神经网络(RNN)的预测允许适应非平稳的呼吸信号,但是诸如RTRL和TRUNCED BPTT之类的经典方法分别缓慢且有偏见。这项研究调查了公正的在线复发优化(UORO)预测呼吸运动的能力,并提高肺放疗的安全性。我们使用了9个观察记录,记录了3D外部标记在胸部和健康个体的腹部的3D位置,从73至222s的间隔内呼吸。采样频率为10Hz,在上部方向上,记录的轨迹的幅度从6mm到40mm不等。我们使用经过UORO训练的RNN同时预测每个标记的3D位置,其地平值在0.1s和2.0之间。我们将其性能与经过RTRL,LMS和离线线性回归训练的RNN进行比较。我们为UORO中涉及梯度损失计算的数量提供了封闭形式的表达式,从而使其实施有效。在每个序列的第一分钟内进行训练和交叉验证。在考虑的地平线值和9个序列上,Uoro平均达到了比较算法之间最低的根平方(RMS)误差和最大误差。这些误差分别等于1.3mm和8.8mm,每时间步长的预测时间低于2.8ms(Dell Intel Core i9-9900K 3.60 GHz)。线性回归的Horizo​​n值为0.1和0.2s的RMS误差最低,其次是0.3s和0.5s之间的LMS,而LMS的LMS误差为0.3s和0.5s,而Uoro的地平线值大于0.6s。
translated by 谷歌翻译